OpenAI 在凌晨的春季更新串流节目中发表 GPT-4o 模型,它具备 GPT-4 Turbo 的同等智能,但回应速度快一倍,并能同时处理语音、文字和视觉输入。
GPT-4o 中的“o”代表“全方位(omni)”,指的是该模型的可以同时处理多种输入输出模式的能力。OpenAI 表示,GPT-4o 与 GPT-3.5 或 GPT-4 不同,两者虽然允许用户通过说话提问,但其实背后是将将语音转录成文字,再将文字回应转成语音。
GPT-4o 在训练的过程中就已经整合了文字、视觉和音讯,这意味着所有这些不同模式的输入和输出,都依然由同一个神经网络处理。
OpenAI 在 YouTube 频道上张贴了 16 段影片,展示使用 GPT-4o 模型的 ChatGPT app 即时语音助理功能,它同时具备几乎即时的语音辨识和电脑视觉能力,能观看手写文字、图案及算式,即时翻译,又能即时分析用户批准它观看的画面内容,包括即时分析程式或图表,提供意见。
ChatGPT 语音助理说话相当自然,用户也像与真人交谈一样,回应相当快速,不过她有点长气,示范期间主持人也多次打断她。另外,它的效能比 GPT-4 Turbo 提升一倍,但成本就只是 GPT-4 Turbo 的一半,上下文窗口仍然是 128,000 token。GPT-4o 的语言处理能力在质量和速度上均有显著提高,现支援超过 50 种语言。
OpenAI 将在未来几周内向所有人开放新模型,包括免费的 ChatGPT 用户。该公司同时还将发表一个 Window 版的 ChatGPT,但最初仅推出 Mac 版本,付费用户可以从今天开始试用。